召回为什么不能用 AUC 评估

计算AUC时,正样本容易获得,可以拿点击样本做正样本,但负样本从哪里来?照搬精排,用曝光未点击做负样本,行不行呢?不行。#card

  • 否则,测试样本都来自曝光物料,也就是线上系统筛选过的、比较匹配用户爱好的优质物料,这样的测试数据明显与召回的实际应用场景(海量的和用户毫不相关的物料)有着天壤之别。

  • 失真的测试环境只能产生失真的指标,不能反映召回模型的真实水平。读到这里,细心的读者会意识到,其实粗排也面临类似的问题。

  • 严格来讲,凡是曝光过的样本,对粗排来说也应该算正样本。尽管如此,在实践中,我们仍然拿点击当正样本,拿曝光未点击当负样本,计算GAUC来评估粗排模型。

  • 大家都认为,在流程上,粗排比召回离精排更近,因此拿精排的标准来严格要求粗排,也不算太离谱。

那么拿召回结果中除点击之外的其他物料当负样本,行不行呢?#card

  • 假设我们为一个用户召回了三个物料,按召回模型的打分降序排列为{A,B,C}。

  • 历史记录显示只有C被该用户点击过,算正样本。

  • 我们认为A和B是负样本,从而计算出AUC=0,这是否合理呢?答案也是否定的。

    • A、B未曾被用户点击过,可能是因为这两个物料从未向用户曝光过,
  • 所以我们不能肯定用户就一定不喜欢它们,把A、B当负样本过于武断了。

  • 即便我们能够证明用户真的不喜欢A和B,从而计算出AUC=0,难道我们就能得出该召回模型毫无价值的结论吗?答案仍然是否定的

    • 毕竟召回算法找到了用户喜欢的物料C,确实发挥了使用。至于C排序靠后,这一点根本不是问题,因为毕竟召回的顺序并非最终呈现给用户的顺序,把C的位置提到前面、筛选掉不招用户喜欢的A和B,那是粗排、精排的责任。
作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-07

许可协议


网络回响

评论